DETECTION DE FAUX BILLETS
CRÉATION D'ALGORITHME AFIN DE DESCELLER
LES VRAIS DES FAUX.
RÉALISÉ SOUS PYTHON
TABLE DES MATIĂˆRES
PARTIE 1:
Sélection des informations utiles
- Analyse du comportement des billets
Vérification des éléments à traiter
- Mise en relation des différents billets
Mise en corrélations
- Analyse de Régression linéaire multiple
Calcul de leviers / Résidus studentisés
Distance de Cook / Homoscédasticité / QQplot
PARTIE 2:
Mise en place d’algorithme de prédiction
- Cercle de corrélations
Permet de vérifier si nos informations sont bien
sélectionnées.
- Algorithmes de prédictions
Train/split afin d’entrainer nos données
- KMEANS et Régression logistique
Matrice de confusion et classification report
-Recommandation de l’algorithme
Mise en fonction
Conclusion
PARTIE 1
- Mise en relation des différents billets
Mise en corrélations
- Analyse de Régression linéaire multiple
- Calcul de leviers
- Résidus studentisés
- Distance de Cook
- Homoscédasticité
- QQplot
Sélection des informations utiles
- Analyse du comportement des billets
Vérification des éléments à traiter
Contexte et rappel du besoin
PARTIE 1
Lancement d’une mission de data contre le contre façon de billets.
l’Organisation nationale de lutte contre le faux-monnayage (ONCFM).
Cette institution a pour objectif de mettre en place des méthodes d’identification des contrefaçons
des billets en euros.
Nous devons détecter les faux billets en mettant un algorithme performant capable de comparer les
différentes erreurs entre les vrais et les faux,
Analyse des billets
PARTIE 1
Mesurer la taille moyenne des billets
•Length : la longueur du billet (en mm)
•height_left : la hauteur du billet (mesurĂ©e sur le cĂ´tĂ© gauche, en mm)
•height_right : la hauteur du billet (mesurĂ©e sur le cĂ´tĂ© droit, en mm)
•margin_up : la marge entre le bord supĂ©rieur du billet et l'image de celui-ci (en mm)
•margin_low : la marge entre le bord infĂ©rieur du billet et l'image de celui-ci (en mm)
•diagonal : la diagonale du billet (en mm)
Répartition des billets
PARTIE 1
Nous avons un jeu de données
correspondant Ă  1500 Billets
TRUE correspond à 1000 billets ce qui représente
66,7% ou deux tiers du jeu de données.
False correspond à 500 billets ce qui représente
33,3% ou un tiers du jeu de données.
Dont 37 valeurs manquantes dans margin_low
Corrélation des variables
PARTIE 1
Is_genuine est très fortement corélé à Lenght.
Is_genuine est très fortement négativement
corélé à margin_low.
boxplot des variables
PARTIE 1
Lenght False ont une
tendance Ă  Ăªtre plus petit
que les true.
Margin_low False Ă 
une tendance Ă  Ăªtre plus
Élevé que les True.
pairplot des variables
PARTIE 1
Lenght sur margin_low apparait bien
une dissociation entre deux segments.
Régression linéaire multiple
PARTIE 1
Les p > value supérieur à 0,05 ont été retiré
Il reste donc 3 variables dont :
- Intercept
- Isgenuine
- margin_up
Un R² sur une rĂ©gression simple serait base,
Mais sur une multiple nous avons un bon score
bien au dessus de 50% avec 62% avec un bon
model.
Le R² Indicateur de qualitĂ© de la rĂ©gression
linéaire.
Mesure statistique de proximité des données à
la droite de régression.
Répartition des billets
PARTIE 1
Les résidus studentisés mesurent l'écart entre la valeur observée
et la valeur prédite,
ajusté en fonction de l'erreur standard des résidus.
Les leviers mesurent l'influence d'une
observation sur la valeur prédite d'une régression.
Répartition des billets
PARTIE 1
Elle mesure à quel point les estimations des coefficients seraient modifiées
si une observation était exclue du modèle.
Une distance de Cook élevée indique une influence significative de l'observation sur le modèle.
Colinéarité des variables
PARTIE 1
La colinĂ©aritĂ© se produit lorsque l'une des variables indĂ©pendantes peut Ăªtre prĂ©dite
de manière linéaire à partir d'une combinaison linéaire des autres variables indépendantes.
Cela peut causer des problèmes dans l'analyse de régression et affecter l'interprétation des coefficient.
Une autre chose à vérifier est l'éventuelle colinéarité approchée des variables
Colinéarité des variables
PARTIE 1
Test de Breusch-Pagan :
p-value < 0,05 :
On ne peut pas rejeter l'hypothèse nulle, model linéaire robuste
suggĂ©rant que hĂ©tĂ©roscĂ©dasticitĂ© peut Ăªtre considĂ©rĂ©e comme prĂ©sente.
Evalue la pertinence d’un model théorique
utile pour évaluer la normalité des résidus
La dispersion des résidus peut indiquer une violation de l'homoscédasticité
Analyses des variables
PARTIE 1
Malgré l’hétéroscédasticité on considère que
notre model est bien robuste.
Le résultat non montre une lois anormale
PARTIE 2
Mise en place d’algorithme de prédiction
- Cercle de corrélations
Permet de vérifier si nos informations sont bien
sélectionnées.
- Algorithmes de prédictions
Train/split afin d’entrainer nos données
- KMEANS et Régression logistique
Matrice de confusion et classification report
-Recommandation de l’algorithme
Mise en fonction
PARTIE 2
Cercle de corrélations
Avec le cercle des corrélations F1-F2 (la
projection de la flèche sur F1 correspond au
coefficient de corrélation ), on peut trouver
des variables qui sont bien corrélées aux
composantes principales:
•Les variables les plus corrĂ©lĂ©es positivement Ă 
F1 sont 'height' et 'margin’
•Les variables les plus corrĂ©lĂ©es nĂ©gativement Ă 
F1 est 'length’
•Les variables les plus corrĂ©lĂ©es positivement Ă 
F2 est 'diagonal'
PARTIE 2
Algorithmes de prédictions entrainement
Que ce soit sur le KMEANS ou la régression Logistique
Nous mettront en place 75% du model d’entrainement et 25% en test
Grace Ă  cela nous pourront comparer nos deux algo sur les mĂªme jeu de donnĂ©es.
PARTIE 2
Mise en place du Kmeans
Sur le plan factoriel nous apercevons les
deux cluster
Sur la méthode du coude il est
évident que seul 2 cluster sont
présents.
PARTIE 2
Matrice de confusion Kmeans
La prédiction présente 249
billets vrais
La prédiction présente 121
billets faux
La prédiction présente 1
vrais billets mais qui sont
désormais considéré
comme faux
La prédiction présente 4
faux billets qui me sont
considéré comme vrais.
Prédictions effectue sur le test comportant 375 billets
PARTIE 2
Matrice de confusion de la régression logistique
La prédiction présente 247
billets vrais
La prédiction présente 123
billets faux
La prédiction présente 3
vrais billets mais qui sont
désormais considéré
comme faux
La prédiction présente 2
faux billets qui me sont
considéré comme vrais.
Prédictions effectue sur le test comportant 375 billets
PARTIE 2
Comparaison des classification report
Entre le Kmean et la régression logistique
En prenant en compte les prédictions sur les potentiels vrais billets pouvant
passer pour des faux.
Et la Classification Report
Notre algorithme utilisé sera celui de la régression logistique
Le Recall est calculé comme le rapport des vrais
positifs sur la somme des vrais positifs et des faux négatifs.
Le F1 score combine à la fois la précision et le rappel
en une seule métrique.
Il est particulièrement utile lorsque les classes sont
déséquilibrées
PARTIE 2
Courbe de ROC
La courbe ROC est un graphique qui représente la performance d'un
modèle de classification à différents seuils de classification.
Elle est tracée en représentant le taux de vrais positifs (sensibilité ou
taux de rappel)
en fonction du taux de faux positifs (1 - spécificité) à divers seuils de
décision.
Chaque point sur la courbe ROC correspond Ă  un seuil de
classification différent.
L'AUC est la mesure de l'aire sous la courbe ROC.
Il donne une valeur numérique à la performance globale du
modèle.
Plus l'AUC est proche de 1, meilleure est la performance du
modèle.
Seuil de la courbe
CONCLUSION
Récapitulatif des facteurs principaux prix en compte dans cette analyse
- Les tailles des billets ont été déterminant
- La corrélation des variables positives et négatives
- La régression linéaire multiple afin une mesure statistique robuste
-Malgré l’hétéroscédasticité on considère que notre model est bien robuste.
- Le choix de notre alogrithme de prédiction
QUESTIONS
s
RÉPONSES